如何从一大堆杂乱无章的试验数据中找到有价值的数据,基本原则是什么?
上一篇文章:《写SCI的Literature Review(引言|文献综述)时常用的短语和句型模板,即学即用》,点击链接可阅读。
写在前面:点击加入学社,和580多位同行一起主动学习。学习的主要方式为:1. 完成每周木耶学社任务 ➤ 点评任务并提高;2. 针对具体的问题,发表短话题,供大家学习;3. 每周末都会有直播给大家介绍各种学术类问题;4. 帮社友免费修改论文。
今天要讲一个非常重要的话题:
如何有效地筛选实验数据,然后写出漂亮的文章。
这是很多学生苦苦追求却没办法掌握的理想状态。大家都苦恼没有合适的实验数据,就写不出高水平的文章。今天,我们就来讨论一下怎么解决这个问题。
这个话题可以分解成两个部分:
1. 筛选实验数据;
2. 写出漂亮文章。
我们先来讨论第一部分:
筛选实验数据
筛选实验数据的前提是你得有实验数据。获取实验数据的常规途径有3种:
自己做实验;
引用别人的文献中的实验数据;
直接找别人索取实验数据。
先来消除大家一个理解上的误区,绝大多数人会认为自己做实验获得的数据自己更易控制,更容易写出好文章,所以他们遇到问题都会选择自己做实验。反过来说,自己做不了实验,就觉得写不出好论文。
这完全是个人理解的误区,我提到的3种获取实验数据的方法,在本质上并没有任何区别。所以如果你自己没有做实验,那么你就要想办法改变你的思路。
原则上只要是已经在文献中发表的实验数据,大家都可以引用。你甚至可以直接找作者,或者你认识的人索要实验数据,这个可变因素比较多,成功率取决于你个人,我就不多说了。
现在假设你已经获得了实验数据,介绍一下如何筛选实验数据。大家在筛选实验数据的时候,一定要注意4个原则,千万不能触碰造假这条红线。
1. 不能私自选择那些规律性比较明显的数据,剔除那些你认为的离散性比较大的点
有非常多非常多的学生,在这方面的警觉性不够,认为论文的数据规律越明显越好。于是就把那些不满足自己预想规律的数据剔除掉,只保留那些满足自己预想规律的数据。
如果你通过这种方法处理数据撰写论文并发表,原则上,这属于造假行为,是严重的学术不端行为。
为什么有选择地筛选实验数据会造成这么大的影响?我曾经在木研学社的直播中讲过这个问题,今天再来简单地说一下。
我们在对一些数据进行拟合的时候,通常会发现在对某一组数据进行拟合的时候,可以选择多种类型不同的方程对其即拟合。但并不是说所有的方程都符合事物真正的发展规律。
之所以可以用多种方程进行拟合,其中一个重要的原因是,在该区域内这些方程计算结果是类似的,但是一旦自变量的范围扩大,不同方程的计算结果可能会发生翻天覆地的变化。
比如y=1/1000·x+1与y=e^x在(-10, 0)这个范围内的计算结果是很相似的,但是一旦x>0,这个计算结果会相差得越来越大。
所以一旦你对一组数据进行有选择地筛选,你就会改变原来数据满足的规律,让它强行地满足你预想的规律。这就属于一种学术造假和严重的学术不端行为。
2. 要留意突变点的真实含义
如果我们在处理数据的时候发现,某一组数据在某一个范围和另外一个范围界限处,出现了一个非常突兀的不可导点,你就需要额外的留意。有的学生会选择性地把这个点给剔除,这样处理起来会比较方便。
但是往往这种突兀点都有自己真实的含义,不论是物理意义,数学意义还是化学意义。一旦你剔除了这个突兀点,你可能将原本满足分段函数的规律变成了只满足一条函数的规律。你也就可能就此错过了一个重大发现。
所以遇到这种突变点时,你要格外留意。
3. 确认某一些离散点发生的原因
我们在做实验的时候,不可避免会产生一些离散点,原因有很多,比如实验材料自身的离散型,实验操作时产生的误差,以及实验记录时产生的误差等等原因都有可能导致出现离散性的点。
只有当你确认这些离散点是因为你自身实验操作时产生的误差甚至错误而导致的,你才可以剔除这些数据,否则不允许随意放弃这些数据。
事实上,如果你因为自身实验操作,产生了一些数据上的问题,个人建议重新开始做实验。
4. 同一批实验下的不同样本所产生的数据,如果想要进行筛选,请使用同一个标准
比如我做了一批实验,有五个样本ABCDE,这五个样本同时产生了很多数据。如果我要对这些数据进行筛选,那么我必须遵循同一个标准,比如我判断出自变量的值大于30属于操作误差,那么我就同时剔除ABCDE这五个样本中所有大于30的自变量表示的数据。
一旦我使用不同的标准去剔除这五个样本的数据,那么得出来的规律一定是错的。
这一点请大家以后在挑选实验数据的时候格外注意。
如果把论文比作一辆汽车,数据可以说是论文的燃料。不同的处理方式能够得到不同的实验结论及规律,直接关系到实际生产的表现方式及效率。所以希望大家在处理数据的时候,脑子里一定要记住客观二字。
当大家遵守着四个基本原则之后,可以对数据进行筛选。
第二部分内容:如何利用筛选好的数据写出漂亮的文章,我们下节课继续介绍。
今天的内容就讲到这里。